Modern deep neural networks have achieved superhuman performance in tasks from image classification to game play. Surprisingly, these various complex systems with massive amounts of parameters exhibit the same remarkable structural properties in their last-layer features and classifiers across canonical datasets. This phenomenon is known as "Neural Collapse," and it was discovered empirically by Papyan et al. \cite{Papyan20}. Recent papers have theoretically shown the global solutions to the training network problem under a simplified "unconstrained feature model" exhibiting this phenomenon. We take a step further and prove the Neural Collapse occurrence for deep linear network for the popular mean squared error (MSE) and cross entropy (CE) loss. Furthermore, we extend our research to imbalanced data for MSE loss and present the first geometric analysis for Neural Collapse under this setting.
translated by 谷歌翻译
Collecting large-scale medical datasets with fully annotated samples for training of deep networks is prohibitively expensive, especially for 3D volume data. Recent breakthroughs in self-supervised learning (SSL) offer the ability to overcome the lack of labeled training samples by learning feature representations from unlabeled data. However, most current SSL techniques in the medical field have been designed for either 2D images or 3D volumes. In practice, this restricts the capability to fully leverage unlabeled data from numerous sources, which may include both 2D and 3D data. Additionally, the use of these pre-trained networks is constrained to downstream tasks with compatible data dimensions. In this paper, we propose a novel framework for unsupervised joint learning on 2D and 3D data modalities. Given a set of 2D images or 2D slices extracted from 3D volumes, we construct an SSL task based on a 2D contrastive clustering problem for distinct classes. The 3D volumes are exploited by computing vectored embedding at each slice and then assembling a holistic feature through deformable self-attention mechanisms in Transformer, allowing incorporating long-range dependencies between slices inside 3D volumes. These holistic features are further utilized to define a novel 3D clustering agreement-based SSL task and masking embedding prediction inspired by pre-trained language models. Experiments on downstream tasks, such as 3D brain segmentation, lung nodule detection, 3D heart structures segmentation, and abnormal chest X-ray detection, demonstrate the effectiveness of our joint 2D and 3D SSL approach. We improve plain 2D Deep-ClusterV2 and SwAV by a significant margin and also surpass various modern 2D and 3D SSL approaches.
translated by 谷歌翻译
Graph Neural Networks (GNNs) had been demonstrated to be inherently susceptible to the problems of over-smoothing and over-squashing. These issues prohibit the ability of GNNs to model complex graph interactions by limiting their effectiveness at taking into account distant information. Our study reveals the key connection between the local graph geometry and the occurrence of both of these issues, thereby providing a unified framework for studying them at a local scale using the Ollivier's Ricci curvature. Based on our theory, a number of principled methods are proposed to alleviate the over-smoothing and over-squashing issues.
translated by 谷歌翻译
切成薄片的Wasserstein(SW)距离已在不同的应用程序场景中广泛使用,因为它可以缩放到大量的支撑量,而不会受到维数的诅咒。切成薄片的瓦斯坦距离的值是通过radon变换(RT)获得的原始度量的一维表示(投影)之间运输成本的平均值。尽管估计切成薄片的瓦斯坦族的支持效率,但仍需要在高维环境中进行相对较大的预测。因此,对于与维度相比,支撑次数相对较少的应用,例如,使用微型批量方法的几个深度学习应用,radon transform的矩阵乘法中的复杂性成为主要计算瓶颈。为了解决这个问题,我们建议通过线性和随机组合少量的预测来得出预测,这些预测被称为瓶颈预测。我们通过引入层次ra transform(HRT)来解释这些投影的用法,该层rad rad transform(HRT)是通过递归应用radon变换变体构建的。然后,我们将方法制定为措施之间的新指标,该指标命名为分层切片瓦斯坦(HSW)距离。通过证明HRT的注入性,我们得出了HSW的指标。此外,我们研究了HSW的理论特性,包括其与SW变体的联系及其计算和样品复杂性。最后,我们将HSW的计算成本和生成质量与常规SW进行比较,使用包括CIFAR10,Celeba和Tiny Imagenet在内的各种基准数据集进行深层生成建模的任务。
translated by 谷歌翻译
从非规范目标分布中抽样是概率推断中许多应用的基本问题。 Stein变异梯度下降(SVGD)已被证明是一种强大的方法,它迭代地更新一组粒子以近似关注的分布。此外,在分析其渐近性特性时,SVGD会准确地减少到单目标优化问题,并可以看作是此单目标优化问题的概率版本。然后出现一个自然的问题:“我们可以得出多目标优化的概率版本吗?”。为了回答这个问题,我们提出了随机多重目标采样梯度下降(MT-SGD),从而使我们能够从多个非差异目标分布中采样。具体而言,我们的MT-SGD进行了中间分布的流动,逐渐取向多个目标分布,这使采样颗粒可以移动到目标分布的关节高样区域。有趣的是,渐近分析表明,正如预期的那样,我们的方法准确地减少了多级下降算法以进行多目标优化。最后,我们进行全面的实验,以证明我们进行多任务学习方法的优点。
translated by 谷歌翻译
传统的切成薄片的瓦斯汀定义在两个具有矢量的概率度量之间。当比较图像的两个概率度量时,从业人员首先需要使用样品矩阵和投影矩阵之间的矩阵乘法来矢量化图像,然后将它们投影到一维空间。之后,通过平均两种相应的一维投影概率度量来评估切片的瓦斯汀。但是,这种方法有两个局限性。第一个限制是,图像的空间结构不会通过矢量化步骤有效地捕获。因此,后来的切片过程变得越来越难以收集差异信息。第二个限制是内存效率低下,因为每个切片方向是具有与图像相同的尺寸的向量。为了解决这些局限性,我们提出了针对基于卷积算子的图像的概率度量,用于切成薄片的新型切片方法。我们通过将步幅,扩张和非线性激活函数纳入卷积算子来得出卷积切成薄片的Wasserstein(CSW)及其变体。我们研究了CSW的指标及其样品复杂性,其计算复杂性以及与常规切片的Wasserstein距离的联系。最后,我们证明了CSW在比较图像和训练图像上的深层生成模型中的概率度量方面的良好性能比传统切成薄片的Wasserstein相比。
translated by 谷歌翻译
寻求信息丰富的投影方向是利用切片的瓦斯坦距离在应用中的重要任务。但是,找到这些方向通常需要在投影方向的空间上进行迭代优化程序,这在计算上很昂贵。此外,在深度学习应用中,计算问题甚至更为严重,其中重复了两次小批次概率度量之间的距离。这个嵌套的环路一直是阻止基于良好预测在实践中的良好预测的切片瓦斯汀距离的主要挑战之一。为了应对这一挑战,我们建议利用学习到优化的技术或摊销优化,以预测任何给定的两种微型批次概率措施的信息方向。据我们所知,这是桥梁摊销优化和切成薄片的生成模型的第一部作品。特别是,我们得出了线性摊销模型,广义线性摊销模型和非线性摊销模型,这些模型对应于三种类型的新型迷你批次损失,称为摊销的切片瓦斯坦。我们证明了在标准基准数据集中深层生成模型中提出的切片损失的良好性能。
translated by 谷歌翻译
我们重新审视有限混合模型中最大似然估计量(MLE)的收敛速率的经典问题。 Wasserstein距离已成为分析这些模型参数估计的标准损耗函数,部分原因是其绕过标签切换的能力并准确地表征了具有消失权重的拟合混合物组件的行为。但是,Wasserstein距离只能捕获其余拟合混合物组件中最坏的案例收敛速率。我们证明,当对数似然函数受到惩罚以阻止消失的混合权重时,可以得出更强大的损失函数以解决Wasserstein距离的这种缺点。这些新的损失功能准确地捕获了拟合混合物组件的收敛速率的异质性,并且我们使用它们在各种混合模型中使用它们来锐化现有的侧重和均匀收敛速率。特别是,这些结果表明,受惩罚MLE的组成部分的子集通常比过去的工作预期的要快得多。我们进一步表明,其中一些结论扩展到了传统的MLE。我们的理论发现得到了一项模拟研究的支持,以说明这些改善的收敛速率。
translated by 谷歌翻译
随着对数据隐私和数据量迅速增加的越来越关注,联邦学习(FL)已成为重要的学习范式。但是,在FL环境中共同学习深层神经网络模型被证明是一项非平凡的任务,因为与神经网络相关的复杂性,例如跨客户的各种体系结构,神经元的置换不变性以及非线性的存在每一层的转换。这项工作介绍了一个新颖的联合异质神经网络(FEDHENN)框架,该框架允许每个客户构建个性化模型,而无需在跨客户范围内实施共同的架构。这使每个客户都可以优化本地数据并计算约束,同时仍能从其他(可能更强大)客户端的学习中受益。 Fedhenn的关键思想是使用从同行客户端获得的实例级表示,以指导每个客户的同时培训。广泛的实验结果表明,Fedhenn框架能够在跨客户的同质和异质体系结构的设置中学习更好地表现客户的模型。
translated by 谷歌翻译
我们为上市度量标准提供了贝叶斯一致性的简单条件。该技术的关键是三角形不等式,使我们能够明确地使用弱收敛,这是预先进行的标准Kullback-Leibler支持条件的后果。另一个条件是确保密度的平滑版本不像原始密度那么远,从而处理可以太密切地跟踪数据的密度。纸质的一个关键结果是,与目前用于保护$ \ MathBB {L} _1 $一致性的人相比,我们使用较弱的条件展示了超级一致性。
translated by 谷歌翻译